检索结果

Select

1. 基于神经网络的复杂垃圾信息过滤算法分析

张建, 严珂, 马祥

《计算机应用》唯一官方网站 2022, 42 (3): 770-777. DOI: 10.11772/j.issn.1001-9081.2021040791

摘要（328）

HTML （14）

PDF （610KB）（136）

垃圾信息的识别是自然语言处理方面主要的任务之一。传统方法是基于文本特征或词频的方法，其识别准确率主要依赖于特定关键词的出现与否，存在对关键词识别错误或对未出现关键词的垃圾信息文本识别能力较差的问题，提出基于神经网络的方法。首先，利用传统方法针对这一类垃圾信息文本进行识别训练和测试；然后，利用从垃圾短信、广告和垃圾邮件数据集中挑选出传统方法识别困难的垃圾信息，再从原数据集中随机挑选出同样数量的正常信息，将其组成三个无重复数据的新数据集；最后，以卷积神经网络和循环神经网络为基础，建立了三个模型，并在新数据集上进行识别训练。实验结果表明，基于神经网络的方法可以从文本中学习到更好的语义特征，在三个数据集上均能达到98%以上的准确率，高于朴素贝叶斯（NB）、随机森林（RF）、支持向量机（SVM）等传统方法。实验结果还显示，不同的神经网络适用于不同长度的文本分类，由循环神经网络组成的模型擅长识别句子长度的文本，由卷积神经网络组成的模型擅长识别段落长度的文本，由两者共同组成的模型擅长识别篇章长度的文本。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于差异性和准确性的加权调和平均度量的基因表达数据选择性集成算法

高慧云, 陆慧娟, 严珂, 叶敏超

计算机应用 2018, 38 (5): 1512-1516. DOI: 10.11772/j.issn.1001-9081.2017102464

摘要（413）

PDF （708KB）（291）

基分类器之间的差异性和单个基分类器自身的准确性是影响集成系统泛化性能的两个重要因素，针对差异性和准确性难以平衡的问题，提出了一种基于差异性和准确性的加权调和平均（D-A-WHA）度量基因表达数据的选择性集成算法。以核超限学习机（KELM）作为基分类器，通过D-A-WHA度量调节基分类器之间的差异性和准确性，最后选择一组准确性较高并且与其他基分类器差异性较大的基分类器组合进行集成。通过在UCI基因数据集上进行仿真实验，实验结果表明，与传统的Bagging、Adaboost等集成算法相比，基于D-A-WHA度量的选择性集成算法分类精度和稳定性都有显著的提高，且能有效应用于癌症基因数据的分类中。

参考文献 | 相关文章 | 多维度评价

Select

3. 自适应混沌粒子群算法对极限学习机参数的优化

陈晓青, 陆慧娟, 郑文斌, 严珂

计算机应用 2016, 36 (11): 3123-3126. DOI: 10.11772/j.issn.1001-9081.2016.11.3123

摘要（680）

PDF （595KB）（584）

针对极限学习机（ELM）在处理非线性数据时效果不理想，并且ELM的参数随机化不利于模型泛化的特点，提出了一种改进的极限学习机算法。结合自适应混沌粒子群（ACPSO）算法对ELM的参数进行优化，以增强算法的稳定性，提高ELM对基因表达数据分类的精度。在UCI基因数据集上进行仿真实验，实验结果表明，与探测粒子群-极限学习机（DPSO-ELM）、粒子群-极限学习机（PSO-ELM）等算法相比，自适应混沌粒子群-极限学习机（ACPSO-ELM）算法具有较好的稳定性、可靠性，且能有效提高基因分类精度。

参考文献 | 相关文章 | 多维度评价